复杂场景下的群体活动识别是一项具有挑战性的任务,它涉及一组人在场景中的相互作用和相对空间位置关系。针对当前复杂场景下群组行为识别方法缺乏精细化设计以及没有充分利用个体间交互式特征的问题,提出了基于分块注意力机制和交互位置关系的网络框架,进一步考虑个体肢体语义特征,同时挖掘个体间交互特征相似性与行为一致性的关系。首先,采用原始视频序列和光流图像序列作为网络的输入,并引入一种分块注意力模块来细化个体的肢体运动特征;然后,将空间位置和交互式距离作为个体的交互特征;最后,将个体运动特征和空间位置关系特征融合为群体场景无向图的节点特征,并利用图卷积网络(GCN)进一步捕获全局场景下的活动交互,从而识别群体活动。实验结果表明,此框架在两个群组行为识别数据集(CAD和CAE)上分别取得了92.8%和97.7%的识别准确率,在CAD数据集上与成员关系图(ARG)和置信度能量循环网络(CERN)相比识别准确率分别提高了1.8个百分点和5.6个百分点,同时结合消融实验结果验证了所提算法有较高的识别精度。
针对阿尔兹海默症(AD)患者和正常(NC)人之间核磁共振成像(MRI)图像差别小、分类难度大的问题,提出了基于改进VGG网络的弱监督细粒度AD分类方法。该方法以弱监督数据增强网络(WSDAN)为基本模型,主要由弱监督注意力学习模块、数据增强模块及双线性注意力池化模块等构成。首先,通过弱监督力注意学习模块生成特征图和注意力图,并利用注意力图引导数据增强,将原图和增强后的数据同时作为输入数据进行训练;然后,通过双线性注意力池化算法将特征图和注意力图按元素进行点乘,进而得到特征矩阵;最后,将特征矩阵作为线性分类层的输入。将以VGG19作为特征提取网络的WSDAN基本模型应用到AD的MRI数据上,实验结果表明,仅使用图像增强的模型的准确性、敏感性和特异性分别比WSDAN基本模型提高了1.6个百分点、0.34个百分点和0.12个百分点;仅利用VGG19网络的改进的模型的准确性和特异性相较WSDAN基本模型分别提高了0.7个百分点和2.82个百分点;以上两个方法结合使用的模型与WSDAN基本模型相比,准确性、敏感性和特异性分别提高了2.1个百分点、1.91个百分点和2.19个百分点。